学习多样化的技能是机器人技术的主要挑战之一。为此,模仿学习方法取得了令人印象深刻的结果。这些方法需要明确标记的数据集或采用一致的技能执行,以使学习和积极控制单个行为,从而限制其适用性。在这项工作中,我们提出了一种合作的对抗方法,用于从未标记的数据集中获得可控技能的单一多功能策略,该数据集包含各种状态过渡模式,通过最大化其可区分性。此外,我们表明,通过在生成的对抗性模仿学习框架中利用无监督的技能发现,新颖而有用的技能随着成功的任务实现而出现。最后,在示威中编码的各种技能的忠实复制中,对获得的多功能策略进行了测试,并呈现了忠实的复制。
translated by 谷歌翻译
人类能够在鲁棒性,多功能性和学习各种运动中的新任务方面超越机器人。我们假设高度非线性的肌肉动力学在提供固有的稳定性方面起着重要作用,这有利于学习。虽然在模拟和机器人技术中将现代学习技术应用于肌肉动态系统方面取得了最新进展,但到目前为止,尚未进行详细的分析以在这种情况下显示肌肉的好处。我们的研究通过研究核心机器人技术的挑战并比较不同执行器形态的性能,从数据效率,超参数灵敏度和鲁棒性进行比较。
translated by 谷歌翻译
学习敏捷技能是机器人技术的主要挑战之一。为此,加强学习方法取得了令人印象深刻的结果。这些方法需要根据奖励功能或可以在模拟中查询的专家来提供明确的任务信息,以提供目标控制输出,从而限制其适用性。在这项工作中,我们提出了一种生成的对抗方法,用于从部分和潜在的物理不兼容的演示中推断出奖励功能,以成功地获得参考或专家演示的成功技能。此外,我们表明,通过使用Wasserstein gan公式和从以粗糙和部分信息为输入的示范中进行过渡,我们能够提取强大的策略并能够模仿证明的行为。最后,在一个名为Solo 8的敏捷四倍的机器人上测试了所获得的技能,例如后空飞弹,并对手持人类示范的忠实复制进行了测试。
translated by 谷歌翻译
设计人工代理商是一个长期的梦想,可以通过内在动机有效地探索其环境,这类似于孩子们的表演方式。尽管最新的本质上动机增强学习(RL)的进步,但在物体操纵方案中的样本效率探索仍然是一个重大挑战,因为大多数相关信息都在于稀疏的代理对象和对象对象相互作用。在本文中,我们建议使用结构化的世界模型将关系电感偏置纳入控制回路中,以实现组成多对象环境中的样品效率和相互作用富含的探索。通过计划未来的新颖性结构化世界模型,我们的方法生成了自由播放的行为,这些行为早期就开始与对象交互,并随着时间的推移发展更复杂的行为。我们的方法不仅仅是使用模型来计算固有的奖励,我们的方法表明,良好模型和良好探索之间的自我增强周期也开辟了另一条途径:通过基于模型的计划,零击向下游任务。在完全固有的任务不足探索阶段之后,我们的方法解决了诸如堆叠,翻转,拾取和地点之类的挑战性下游任务,并投掷,这些任务概括为看不见的数字和对象的安排,而无需任何其他培训。
translated by 谷歌翻译
人类可以在各种时间尺度和层次级别上做出预测。因此,对事件编码的学习似乎起着至关重要的作用。在这项工作中,我们通过自主学习的潜在事件代码对层次预测的开发进行建模。我们提出了分层复发性神经网络结构,其诱导学习偏见促进了压缩感觉运动序列的稀疏潜在状态的发展。更高级别的网络学会了预测潜在国家倾向于改变的情况。使用模拟机器人操纵器,我们证明系统(i)学习了准确反映数据事件结构的潜在状态,(ii)在较高级别上开发有意义的时间抽象预测,(iii)生成了靶心,相似的行为在与婴儿的眼神追踪研究中发现的凝视行为。该体系结构为自主学习收集的经验的压缩层次编码以及对这些编码产生适应性行为的开发提供了一步。
translated by 谷歌翻译
等级强化学习(HRL)对挑战长地平线任务的采样有效学习具有巨大潜力。特别是,让更高的级别将子站分配给较低级别​​,以便在难题上快速学习。然而,这种基于基于亚级的方法是设计的静态强化学习环境,从而与超出了代理的立即控制的动态元素,即使它们在现实世界中普遍存在。在本文中,我们使用定时子站(HITS)引入分层加强学习,这是一个HRL算法,使代理能够通过不仅指定要达到目标状态而且何时来调整其对动态环境的时序。我们讨论如何在这种定时的子原方面与较低级别进行通信导致更高水平的更稳定的学习问题。我们在一系列标准基准和三个新的挑战动态强化学习环境中的实验表明,我们的方法能够采用样本高效的学习,其中现有的最先进的基于亚群的HRL方法未能学习稳定的解决方案。
translated by 谷歌翻译
视觉的触觉传感器由于经济实惠的高分辨率摄像机和成功的计算机视觉技术而被出现为机器人触摸的有希望的方法。但是,它们的物理设计和他们提供的信息尚不符合真实应用的要求。我们提供了一种名为Insight的强大,柔软,低成本,视觉拇指大小的3D触觉传感器:它不断在其整个圆锥形感测表面上提供定向力分布图。围绕内部单眼相机构造,传感器仅在刚性框架上仅成型一层弹性体,以保证灵敏度,鲁棒性和软接触。此外,Insight是第一个使用准直器将光度立体声和结构光混合的系统来检测其易于更换柔性外壳的3D变形。通过将图像映射到3D接触力的空间分布(正常和剪切)的深神经网络推断力信息。洞察力在0.4毫米的总空间分辨率,力量幅度精度约为0.03 n,并且对于具有不同接触面积的多个不同触点,在0.03-2 n的范围内的5度大约5度的力方向精度。呈现的硬件和软件设计概念可以转移到各种机器人部件。
translated by 谷歌翻译
在部分可观察域中的预测和规划的常见方法是使用经常性的神经网络(RNN),其理想地开发和维持关于隐藏,任务相关因素的潜伏。我们假设物理世界中的许多这些隐藏因素随着时间的推移是恒定的,而只是稀疏变化。为研究这一假设,我们提出了Gated $ L_0 $正规化的动态(Gatel0rd),一种新的经常性架构,它包含归纳偏差,以保持稳定,疏口改变潜伏状态。通过新颖的内部门控功能和潜在状态变化的$ l_0 $ norm的惩罚来实现偏差。我们证明Gatel0rd可以在各种部分可观察到的预测和控制任务中与最先进的RNN竞争或优于最先进的RNN。 Gatel0rd倾向于编码环境的基础生成因子,忽略了虚假的时间依赖性,并概括了更好的,提高了基于模型的规划和加强学习任务中的采样效率和整体性能。此外,我们表明可以容易地解释开发的潜在状态,这是朝着RNN中更好地解释的步骤。
translated by 谷歌翻译
许多增强学习(RL)环境包括独立实体,这些实体稀疏地互动。在这种环境中,RL代理商在任何特定情况下对其他实体的影响仅受限。我们在这项工作中的想法是,通过了解代理人可以通过其行动的何时以及何时何地效力,可以有效地指导。为实现这一目标,我们根据条件互信息介绍\ emph {情况依赖性因果影响},并表明它可以可靠地检测影响的态度。然后,我们提出了几种方法将这种措施集成到RL算法中,以改善探索和禁止政策学习。所有修改的算法都显示出机器人操纵任务的数据效率强劲增加。
translated by 谷歌翻译
In this paper, we present a modular methodology that combines state-of-the-art methods in (stochastic) machine learning with traditional methods in rule learning to provide efficient and scalable algorithms for the classification of vast data sets, while remaining explainable. Apart from evaluating our approach on the common large scale data sets MNIST, Fashion-MNIST and IMDB, we present novel results on explainable classifications of dental bills. The latter case study stems from an industrial collaboration with Allianz Private Krankenversicherungs-Aktiengesellschaft which is an insurance company offering diverse services in Germany.
translated by 谷歌翻译